Ứng dụng Dữ_liệu_lớn

Báo cáo của Viện nghiên cứu Toàn cầu McKinsey năm 2011 mô tả các thành phần chính và hệ sinh thái của dữ liệu lớn như sau:

• Các kỹ thuật để phân tích dữ liệu, chẳng hạn như kiểm thử A/B, học máy và xử lý ngôn ngữ tự nhiên

• Công nghệ dữ liệu lớn, như thông tin kinh doanh, điện toán đám mây và cơ sở dữ liệu

• Công cụ trực quan như biểu đồ, đồ thị và các phương pháp thể hiện khác của dữ liệu

Các dữ liệu lớn đa chiều cũng có thể được biểu diễn dưới dạng tensor, có thể được xử lý hiệu quả hơn bằng cách tính toán dựa trên cơ sở dựa trên Tensor, chẳng hạn như nghiên cứu không gian đa cấp. Các công nghệ bổ sung đang được áp dụng cho dữ liệu lớn bao gồm cơ sở dữ liệu MPP, các ứng dụng dựa trên tìm kiếm, khai thác dữ liệu, hệ thống phân tán tập tin, phân tán cơ sở dữ liệu, điện toán đám mây và HPC (ứng dụng, lưu trữ và các tài nguyên máy tính) và Mạng Internet. Mặc dù nhiều phương thức tiếp cận cũng như các công nghệ xử lý đã được phát triển, vẫn còn khó khăn để thực hiện việc học máy với dữ liệu lớn.

Một vài cơ sở dữ liệu liên quan đến MPP có khả năng lưu trữ và quản lý hàng petabytes dữ liệu. Đó chính là một nguồn tận dụng khả năng tải về, theo dõi, sao lưu và tối ưu hóa việc sử dụng các bảng dữ liệu lớn trong RDBMS.

Chương trình Phân tích Dữ liệu Topological của DARPA tìm ra cấu trúc cơ bản của bộ dữ liệu khổng lồ và đến năm 2008, công nghệ này được công bố cùng với sự ra mắt của công ty Ayasdi.

Những chuyên viên phân tích dữ liệu lớn thường không sử dụng việc lưu trữ bằng những ổ đĩa chia sẻ vì chúng chậm, họ thích lưu trữ trực tiếp (DAS) dưới nhiều hình thức khác nhau từ ổ SSD (SATA) đến ổ đĩa SATA dung lượng cao được tích hợp bên trong các nút xử lý song song. Các kiến ​​trúc lưu trữ dùng chung - Mạng lưu trữ (SAN) và Lưu trữ trên Mạng (NAS) tương đối chậm, phức tạp và tốn kém. Những yếu tố này không phù hợp với các hệ thống phân tích dữ liệu lớn đang phát triển mạnh mẽ về hiệu năng hệ thống, cơ sở hạ tầng và chi phí thấp.

Việc gửi thông tin thời gian thực hoặc gần với thời gian thực là một trong những đặc điểm xác định của phân tích dữ liệu lớn. Do đó độ trễ được tránh bất cứ khi nào và bất cứ khi nào có thể. Dữ liệu trong bộ nhớ là dữ liệu trên một đĩa quay tròn với một đầu kia là FC SAN. Chi phí của một SAN ở quy mô cần thiết cho các ứng dụng phân tích cao hơn rất nhiều so với các kỹ thuật lưu trữ khác.

Có nhiều lợi thế cũng như bất lợi khi sử dụng các ổ đĩa chung trong phân tích dữ liệu lớn, nhưng các chuyên gia phân tích dữ liệu lớn vào năm 2011 đã không ủng hộ chuyện này.

Quản lý Chính phủ

Việc sử dụng các dữ liệu lớn trong các quy trình của chính phủ cho phép tăng hiệu quả về mặt chi phí, năng suất và sự đổi mới, nhưng không phải là không có sai sót của nó. Phân tích dữ liệu thường yêu cầu nhiều bộ phận của chính phủ (trung ương và địa phương) hợp tác và tạo ra các quy trình mới và sáng tạo để mang lại kết quả mong muốn. Dưới đây là một số ví dụ về các sáng kiến ​​liên quan đến dữ liệu lớn của chính phủ.

Hoa Kỳ

• Năm 2012, chính quyền của Tổng thống Obama tuyên bố Sáng kiến ​​Nghiên cứu và Phát triển Dữ liệu lớn để tìm hiểu xem dữ liệu lớn có thể được sử dụng như thế nào để giải quyết các vấn đề quan trọng mà chính phủ phải đối mặt. Sáng kiến ​​bao gồm 84 chương trình dữ liệu lớn khác nhau trải rộng trên sáu phòng ban.

• Phân tích dữ liệu lớn đã đóng một vai trò lớn trong chiến dịch bầu cử lại thành công của Barack Obama năm 2012.

• Chính phủ liên bang Hoa Kỳ sở hữu sáu trong số mười siêu máy tính mạnh nhất trên thế giới.

• Trung tâm Dữ liệu Utah đã được NSA (Cơ quan An ninh Quốc gia Hoa Kỳ) xây dựng. Khi hoàn tất, cơ sở sẽ có thể xử lý một số lượng lớn thông tin thu thập được bởi NSA qua Internet. Số lượng chính xác của không gian lưu trữ là không rõ, nhưng các nguồn gần đây hơn cho rằng nó lên đến vài exabyte.

Ấn Độ

• Phân tích số liệu lớn đã được thử nghiệm cho BJP để giành chiến thắng trong Tổng tuyển cử Ấn Độ, 2014.

• Chính phủ Ấn Độ sử dụng nhiều kỹ thuật để xác định cách thức cử tri Ấn Độ phản ứng lại hành động cũng như các ý tưởng của chính phủ về thay đổi chính sách.

Vương quốc Anh

Ví dụ về việc sử dụng dữ liệu lớn trong các dịch vụ công:

• Dữ liệu về thuốc theo toa: bằng cách kết nối nguồn gốc, vị trí và thời gian của mỗi toa thuốc, một đơn vị nghiên cứu có thể theo dõi việc phân phối bất cứ loại thuốc nào trong đơn thuốc, và hướng dẫn Viện Y tế và Chăm sóc Quốc gia điều chỉnh cho chính xác. Điều này khiến cho các loại thuốc mới nhất sẽ tốn ít thời gian hơn khi đến với bệnh nhân phổ thông.

• Kết nối dữ liệu: các cơ quan địa phương liên kết các dữ liệu về các dịch vụ với nhau, ví dụ như hệ thống giao thông, với các dịch vụ công, như là việc phân chia thức ăn cho người tàn tật. Việc kết nối dữ liệu cho phép chính quyền địa phương tránh được các chậm trễ liên quan đến thời tiết, đường sá...

Sự phát triển quốc tế

Nghiên cứu về việc sử dụng hiệu quả các công nghệ thông tin và truyền thông cho mục đích phát triển (hay còn gọi là ICT4D) cho thấy công nghệ dữ liệu lớn có thể có nhiều đóng góp quan trọng nhưng cũng là thách thức đối với sự phát triển của quốc tế. Những tiến bộ trong phân tích dữ liệu lớn giúp giảm chi phí cho việc ra quyết định trong các lĩnh vực quan trọng như chăm sóc sức khoẻ, việc làm, năng suất kinh tế, tội phạm, an ninh, thiên tai và quản lý tài nguyên. Tuy nhiên, những thách thức đối với các nước đang phát triển như cơ sở hạ tầng công nghệ không đầy đủ và sự khan hiếm về kinh tế và nguồn nhân lực sẽ làm nghiêm trọng thêm các mặt trái của dữ liệu lớn như sự riêng tư hoặc các vấn đề khác.

Tài chính

Việc sử dụng các dữ liệu lớn dưới dạng lịch sử các giao dịch tài chính được gọi là phân tích kỹ thuật. Sử dụng dữ liệu phi tài chính để dự đoán thị trường đôi khi được gọi là dữ liệu thay thế.

Sản Xuất

Theo bài Nghiên cứu xu hướng toàn cầu TCS 2013, sự cải tiến trong kế hoạch sản xuất và chất lượng sản phẩm là lợi ích lớn nhất của dữ liệu lớn cho ngành sản xuất. Dữ liệu lớn cung cấp cơ sở hạ tầng cho ngành công nghiệp sản xuất, đó là khả năng cải thiện năng suất và tính khả dụng. Việc lên kế hoạch sản xuất chính là một cách tiếp cận dữ liệu lớn cho phép giảm thời gian chết về gần như bằng không và cụ thể hóa số lượng lớn dữ liệu và các công cụ dự đoán khác cho phép tạo ra một quá trình nhằm hệ thống hóa dữ liệu thành các thông tin hữu ích. Khái niệm về việc dự báo sản xuất bắt đầu bằng việc thu thập dữ liệu cảm quan khác nhau như âm thanh, chuyển động, áp suất, điện áp... Số lượng lớn các dữ liệu cảm quan cộng với dữ liệu lịch sử sản xuất tạo thành dữ liệu lớn trong sản xuất. Các dữ liệu lớn này như là đầu vào cho các công cụ dự báo và các chiến lược phòng ngừa tương tự như việc dự báo trong lĩnh vực Quản lý Y tế.

Chăm sóc sức khỏe

Phân tích dữ liệu lớn đã giúp cải thiện việc chăm sóc sức khoẻ bằng cách cá nhân hóa các phương pháp trị liệu và chẩn đoán lâm sàng, làm giảm thiểu chi phí và thời gian khám bệnh, tự động báo cáo và lưu trữ thông tin sức khỏe và dữ liệu bệnh nhân trong nội bộ cũng như mở rộng ra bên ngoài, chuẩn hóa các thuật ngữ y học và chống phân mảnh trong lưu trữ dữ liệu và thông tin của bệnh. Một số lĩnh vực có sự cải tiến mang tính hướng dẫn hơn là thực hành. Lượng dữ liệu được tạo ra trong các hệ thống chăm sóc sức khoẻ là không nhỏ. Với sự bổ sung thêm của mHealth, eHealth và các thiết bị công nghệ theo dõi sức khỏe được thì khối lượng dữ liệu sẽ tiếp tục gia tăng. Điều này bao gồm dữ liệu ghi chép sức khoẻ điện tử, dữ liệu hình ảnh, dữ liệu được tạo ra của bệnh nhân, dữ liệu cảm biến và các dạng dữ liệu khó xử lý khác. Hiện nay, nhu cầu lớn hơn đối với các môi trường như vậy là chú ý nhiều hơn đến chất lượng dữ liệu và thông tin. "Dữ liệu lớn rất thường có nghĩa là dữ liệu chưa được xử lý và một phần số liệu không chính xác tăng lên khi có sự tăng trưởng khối lượng dữ liệu." Việc theo dõi bằng con người ở quy mô dữ liệu lớn là không thể và có một nhu cầu cấp thiết về các công cụ thông minh để kiểm soát chính xác và xử lý thông tin bị mất trong dịch vụ y tế. Mặc dù dữ liệu trong lĩnh vực chăm sóc sức khoẻ hiện nay thường được lưu trữ dưới dạng điện tử, nhưng nó nằm ngoài phạm vi của dữ liệu lớn vì hầu hết không có cấu trúc và khó sử dụng.

Giáo dục

Một nghiên cứu của Viện nghiên cứu toàn cầu McKinsey cho thấy, ngành dữ liệu lớn đang thiếu hụt 1,5 triệu chuyên gia cũng như nhà quản lý dữ liệu, và một số trường đại học bao gồm Đại học Tennessee và UC Berkeley đã tạo ra các chương trình thạc sĩ để đáp ứng nhu cầu này. Các khóa huấn luyện tư nhân cũng phát triển các chương trình để đáp ứng nhu cầu đó, bao gồm các chương trình miễn phí như The Data Incubator hoặc chương trình trả tiền như General Assembly.

Truyền thông

Để hiểu cách thức các phương tiện truyền thông sử dụng dữ liệu lớn như thế nào, trước tiên cần hiểu rõ một số ngữ cảnh trong cơ chế sử dụng cho quá trình truyền thông. Nick Couldry và Joseph Turow đề xuất rằng các học viên trong ngành Truyền thông và Quảng cáo cần tiếp cận dữ liệu lớn như là nhiều điểm thông tin về hàng triệu cá nhân. Ngành công nghiệp dường như đang chuyển hướng từ cách tiếp cận truyền thống bằng cách sử dụng các môi trường truyền thông cụ thể như báo chí, tạp chí hoặc chương trình truyền hình và thay vào đó là những người tiêu dùng với công nghệ tiếp cận những người này được nhắm mục tiêu vào những thời điểm tối ưu ở những vị trí tối ưu. Mục đích cuối cùng là để phục vụ hoặc truyền tải, một thông điệp hoặc nội dung (theo cách thống kê) phù hợp với suy nghĩ của người tiêu dùng. Ví dụ, môi trường xuất bản ngày càng làm cho các thông điệp (quảng cáo) và nội dung (bài viết) được cải thiện để thu hút người tiêu dùng đã được thu thập độc quyền thông qua các hoạt động khai thác dữ liệu khác nhau.

• Nhắm đến người tiêu dùng mục tiêu (đối với quảng cáo của các nhà tiếp thị)

•Thu thập dữ liệu

• Dữ liệu trong báo chí: nhà xuất bản và nhà báo sử dụng các công cụ dữ liệu lớn để cung cấp thông tin chi tiết và các bản đồ họa chi tiết độc đáo và sáng tạo.

Kênh 4, một kênh phát thanh truyền hình công cộng của Anh, đang dẫn đầu trong lĩnh vực dữ liệu lớn và phân tích dữ liệu.

Mạng lưới vạn vật kết nối Internet (IoT)

Dữ liệu lớn có thể kết hợp với công nghệ Mạng lưới vạn vật kết nối Internet. Dữ liệu được chiết xuất từ ​​các thiết bị IoT cung cấp một bản đồ kết nối giữa các thiết bị. Những sự kết nối này đã được ngành công nghiệp truyền thông, các công ty và chính phủ sử dụng để nhắm mục tiêu chính xác hơn đối tượng của họ và tăng hiệu quả của phương tiện truyền thông. IoT cũng ngày càng được chấp nhận như một phương tiện thu thập dữ liệu cảm giác, và dữ liệu cảm giác này đã được sử dụng trong các ngành như y học và sản xuất.

Kevin Ashton, chuyên gia đổi mới kỹ thuật số người được cho là người tạo ra thuật ngữ định nghĩa Internet vạn vật đã phát biểu: "Nếu chúng ta có máy tính biết tất cả mọi thứ - nó sẽ sử dụng dữ liệu mà nó thu thập được mà không có sự trợ giúp từ chúng ta - chúng ta sẽ có thể theo dõi và kiểm soát mọi thứ, giảm đáng kể lượng chất thải, tổn thất và chi phí. Chúng ta sẽ biết khi nào cần thay thế, sửa chữa hoặc thu hồi lại, và liệu rằng thức ăn chúng ta đang ăn có tươi hay không."

Công nghệ

Từ năm 2015, dữ liệu lớn trở nên nổi bật trong hoạt động kinh doanh như một công cụ để giúp nhân viên làm việc hiệu quả hơn cũng như tối ưu hóa việc thu thập và chia sẻ thông tin. Việc sử dụng dữ liệu lớn để giải quyết các vấn đề thu thập dữ liệu và CNTT trong một doanh nghiệp được gọi là IT Operations Analytics (ITOA). Bằng cách áp dụng các nguyên tắc dữ liệu lớn vào các khái niệm về trí thông minh của máy móc và tính toán sâu, các bộ phận CNTT có thể dự đoán các vấn đề tiềm ẩn và đưa ra các giải pháp trước khi vấn đề xảy ra. Vào thời điểm này, các doanh nghiệp ITOA cũng bắt đầu đóng vai trò quan trọng trong việc quản lý hệ thống bằng cách cung cấp các nền tảng mang các dữ liệu cá nhân riêng biệt và tạo ra những hiểu biết sâu sắc từ toàn bộ hệ thống chứ không phải từ các dữ liệu riêng lẻ.

EBay sử dụng hai kho dữ liệu với tốc độ 7.5 petabyte và 40PB cũng như một cụm 40PB Apache Hadoop để tìm kiếm, khuyến nghị người tiêu dùng và bán hàng.

• Amazon.com xử lý hàng triệu hoạt động back-end hàng ngày, cũng như các truy vấn từ hơn nửa triệu người bán hàng bên thứ ba. Công nghệ cốt lõi mà Amazon hoạt động dựa trên Linux và đến năm 2005 họ có ba cơ sở dữ liệu Linux lớn nhất thế giới, với dung lượng 7,8 TB, 18,5 TB và 24,7 TB.

Facebook xử lý 50 tỷ hình ảnh từ cơ sở người dùng của nó.

Google đã xử lý khoảng 100 tỷ lượt tìm kiếm mỗi tháng vào tháng 8 năm 2012.

• Cơ sở dữ liệu Oracle NoSQL đã được kiểm tra để vượt qua mốc 1 triệu xử lý mỗi giây với 8 nhân và đạt tốc độ 1.2 triệu xử lý mỗi giây với 10 nhân.

Tài liệu tham khảo

WikiPedia: Dữ_liệu_lớn http://www.datanami.com/2012/10/01/quantcast_opens... http://www.economist.com/node/15557443 http://www.eweek.com/database/survey-biggest-datab... http://www.ge-ip.com/library/detail/13476/?cid=wik... http://gigaom.com/2008/11/09/mapreduce-leads-the-w... http://research.google.com/archive/mapreduce-osdi0... http://www.hcltech.com/sites/default/files/solving... http://www.ibm.com/big-data/us/en/ http://www.informationweek.com/big-data/news/softw... http://www.nature.com/nature/journal/v455/n7209/fu...